A flexible method is developed to construct a confidence interval for the frequency of a queried object in a very large data set, based on a much smaller sketch of the data. The approach requires no knowledge of the data distribution or of the details of the sketching algorithm; instead, it constructs provably valid frequentist confidence intervals for random queries using a conformal inference approach. After achieving marginal coverage for random queries under the assumption of data exchangeability, the proposed method is extended to provide stronger inferences accounting for possibly heterogeneous frequencies of different random queries, redundant queries, and distribution shifts. While the presented methods are broadly applicable, this paper focuses on use cases involving the count-min sketch algorithm and a non-linear variation thereof, to facilitate comparison to prior work. In particular, the developed methods are compared empirically to frequentist and Bayesian alternatives, through simulations and experiments with data sets of SARS-CoV-2 DNA sequences and classic English literature.
translated by 谷歌翻译
覆盖率概率的估计,尤其是缺失的质量,是许多科学领域应用的经典统计问题。在本文中,我们研究了与随机数据压缩或素描有关的问题。这是一种新颖但实际上相关的观点,它是指必须根据真实数据的压缩和不完美的摘要或草图来估算覆盖范围的情况,因为完全数据或不同符号的经验频率都无法直接观察。我们的贡献是一种贝叶斯非参数方法,可从随机哈希概述的数据中估算覆盖概率,这也解决了恢复真实数据中不同计数和不同计数的挑战性问题,并具有特定的感兴趣的经验频率。拟议的贝叶斯估计量很容易适用于大规模分析,结合了事先进行的差异过程,尽管在更一般的Pitman-yor过程中涉及一些公开的计算挑战。通过数值实验和应用于Covid DNA序列,经典英语文献和IP地址的真实数据集的应用,我们的方法论的经验有效性得到了证明。
translated by 谷歌翻译
我们研究视觉变压器(VIT)的半监督学习(SSL),尽管VIT架构广泛采用了不同的任务,但视觉变形金刚(VIT)还是一个不足的主题。为了解决这个问题,我们提出了一条新的SSL管道,该管道由第一个联合国/自制的预训练组成,然后是监督的微调,最后是半监督的微调。在半监督的微调阶段,我们采用指数的移动平均线(EMA) - 教师框架,而不是流行的FixMatch,因为前者更稳定,并且为半手不见的视觉变压器提供了更高的准确性。此外,我们提出了一种概率的伪混合机制来插入未标记的样品及其伪标签以改善正则化,这对于训练电感偏差较弱的训练VIT很重要。我们所提出的方法被称为半vit,比半监督分类设置中的CNN对应物获得可比性或更好的性能。半vit还享受VIT的可伸缩性优势,可以很容易地扩展到具有越来越高的精度的大型模型。例如,半效率总数仅使用1%标签在Imagenet上获得令人印象深刻的80%TOP-1精度,使用100%ImageNet标签与Inception-V4相当。
translated by 谷歌翻译
最近有关于高斯神经网络(NNS)的大宽度特性的文献,即,其权重根据高斯分布分布。两个流行的问题是:i)研究NNS的大宽度行为,这些行为在高斯工艺方面提供了无限宽的限制的表征; ii)对NNS的大宽度训练动力学的研究,该动力在训练后NN和执行核回归之间具有等效性,并以确定性核为确定性内核,称为神经切线核(NTK)。在本文中,我们考虑了$ \ alpha $ stable NNS的这些问题,通过假设NN的权重分配为$ \ alpha $ - 稳定分布,它通过$ \ alpha \ in(0,2] $,概括了Gaussian nns。即带有沉重的尾巴的分布。对于带有relu激活功能的浅$ \ alpha $ stable nns,我们表明,如果NN的宽度转移到无穷大,那么重新缩放的NN弱收敛到$ \ alpha $ stable的过程,即随机的过程具有$ \ alpha $稳定的有限维分布的过程。作为高斯设置的新颖性,在$ \ alpha $稳定的设置中,激活功能的选择会影响NN的缩放,即:实现无限宽的$ \ alpha $稳定过程,relu功能需要相对于子线性函数进行附加的对数缩放。那么,我们的主要贡献是对浅的$ \ alpha $ stable relu-nns的NTK分析,这是领导的在训练恢复的NN和执行内核回归机智之间具有等效性h $(\ alpha/2)$ - 稳定的随机内核。这种内核的随机性是相对于高斯环境的进一步新颖性,即:在$ \ alpha $稳定性中,初始化时NN的随机性在NTK分析中不会消失,从而诱导了分布的分布基础内核回归的内核。
translated by 谷歌翻译
A flexible conformal inference method is developed to construct confidence intervals for the frequencies of queried objects in very large data sets, based on a much smaller sketch of those data. The approach is data-adaptive and requires no knowledge of the data distribution or of the details of the sketching algorithm; instead, it constructs provably valid frequentist confidence intervals under the sole assumption of data exchangeability. Although our solution is broadly applicable, this paper focuses on applications involving the count-min sketch algorithm and a non-linear variation thereof. The performance is compared to that of frequentist and Bayesian alternatives through simulations and experiments with data sets of SARS-CoV-2 DNA sequences and classic English literature.
translated by 谷歌翻译
隐私保护数据分析研究了在隐私约束下的统计方法。这是现代统计数据中的一个不断提高的挑战,因为机密性保证的实现通常是通过数据扰动而发生的,这可能会决定数据的统计实用性损失。在本文中,我们考虑对频率表中的拟合优点进行隐私测试,这可以说是释放数据的最常见形式,并对私人可能性比率(LR)的大样本行为进行了严格的分析(LR)测试。在$(\ varepsilon,\ delta)$ - 差异隐私的框架下,我们的主要贡献是私人LR测试的功率分析,该测试的特征是通过差异隐私参数测量的机密性之间的权衡取舍($)( \ varepsilon,\ delta)$和统计实用程序,通过测试功率测量。这是通过bahadur-rao大偏差扩展获得的,用于私人LR测试的功率,从样本量,表和$(\ varepsilon,\ delta)$,这决定了测试功能的损失。然后,将这样的结果应用于与参数$(\ varepsilon,\ delta)$相关的样本量和表尺寸的影响,对私人LR测试的功率损失。特别是,我们确定$(样本)成本(\ varepsilon,\ delta)$ - 私人LR测试中的差异隐私,即在没有缺少多项式LR测试的功率所需的附加样本量扰动。我们的功率分析依赖于LR的非标准大偏差分析,以及用于I.I.D的新颖(尖锐)大偏差原理的发展。随机矢量,具有独立感兴趣。
translated by 谷歌翻译
在现代深度学习中,最近又越来越多的文献,关于深高斯神经网络(NNS)的大宽度渐近性能之间的相互作用,即具有高斯分布重量的深NNS和高斯随机过程(SPS)。事实证明,这种相互作用在高斯SP先验下的贝叶斯推论中至关重要,对通过梯度下降训练的无限宽的深NN的内核回归以及无限宽的NN中的信息传播。通过经验分析的激励,该经验分析表明了用稳定的NN重量代替高斯分布的潜力,在本文中,我们对(完全连接的)进料深度稳定NN的大差异行为进行了严格的分析,即深NNS,即具有稳定的分布重量。我们表明,随着宽度共同在NN的层上共同进入无限,即``关节生长''的设置,重新缩放的深稳定nn弱收敛到稳定的SP,其分布通过NN的层递归地表征。 NN的三角结构,这是一个非标准的渐近问题,我们提出了一种独立利益的感应方法。然后,我们在````''''下建立了对稳定的SP的Sup-Norm收敛速率,``关节增长和``顺序增长''的宽度在NN的层上。这样的结果提供了'关节增长'和``顺序增长''的差异,表明前者的速率比速度慢。后者根据层的深度和NN的投入数量。我们的工作扩展了有关深gaussian nns无限宽限制的一些最新结果,以至于更通用的深稳定稳定性NNS,这是第一个结果,这是对融合率的第一个结果。``联合增长''环境。
translated by 谷歌翻译
计数示意图(CMS)是一个时间和内存有效的随机数据结构,可根据随机哈希的数据提供令牌数据流(即点查询)中代币频率的估计。 CAI,Mitzenmacher和Adams(\ textit {neurips} 2018)提出了CMS的学习增强版本,称为CMS-DP,它依赖于贝叶斯非参与式(BNP)模型通过dirichlet过程(DP),给定数据,估计点查询作为位置查询后验分布的合适平均功能的估计值给定数据。尽管CMS-DP已被证明可以改善CMS的某些方面,但它具有``建设性的''证明的主要缺点,该证明是基于针对DP先验的论点构建的,即对其他非参数priors不使用的论点。在本文中,我们提出了CMS-DP的``贝叶斯''证明,其主要优点是基于原则上可用的参数,在广泛的非参数先验中,这是由归一化的完全随机措施引起的。该结果导致在Power-Law数据流下开发了一种新颖的学习增强的CMS,称为CMS-PYP,该CMS-PYP依赖于Pitman-Yor流程(PYP)的BNP模型。在这个更一般的框架下,我们应用了CMS-DP的``贝叶斯人''证明的论点,适当地适合PYP先验,以计算鉴于Hashed Data。数据和真实文本数据显示,CMS-PYP在估计低频代币方面优于CMS和CMS-DP,这在文本数据中是至关重要的,并且相对于CMS的变化,它具有竞争力还讨论了为低频代币设计的。还讨论了我们BNP方法扩展到更通用的查询。
translated by 谷歌翻译
It is well known that conservative mechanical systems exhibit local oscillatory behaviours due to their elastic and gravitational potentials, which completely characterise these periodic motions together with the inertial properties of the system. The classification of these periodic behaviours and their geometric characterisation are in an on-going secular debate, which recently led to the so-called eigenmanifold theory. The eigenmanifold characterises nonlinear oscillations as a generalisation of linear eigenspaces. With the motivation of performing periodic tasks efficiently, we use tools coming from this theory to construct an optimization problem aimed at inducing desired closed-loop oscillations through a state feedback law. We solve the constructed optimization problem via gradient-descent methods involving neural networks. Extensive simulations show the validity of the approach.
translated by 谷歌翻译
Detecting anomalous data within time series is a very relevant task in pattern recognition and machine learning, with many possible applications that range from disease prevention in medicine, e.g., detecting early alterations of the health status before it can clearly be defined as "illness" up to monitoring industrial plants. Regarding this latter application, detecting anomalies in an industrial plant's status firstly prevents serious damages that would require a long interruption of the production process. Secondly, it permits optimal scheduling of maintenance interventions by limiting them to urgent situations. At the same time, they typically follow a fixed prudential schedule according to which components are substituted well before the end of their expected lifetime. This paper describes a case study regarding the monitoring of the status of Laser-guided Vehicles (LGVs) batteries, on which we worked as our contribution to project SUPER (Supercomputing Unified Platform, Emilia Romagna) aimed at establishing and demonstrating a regional High-Performance Computing platform that is going to represent the main Italian supercomputing environment for both computing power and data volume.
translated by 谷歌翻译